l Bài giảng 24 
Lý thuyêt trò chơi 


Lê Thị Quỳnh Trâm 


Nội dung 


Bài giảng trước: 

›_ Trò chơi đông thời, không lặp lại, thông tin đây đủ 
Cân băng Nash thuân túy 

Bài giảng hôm nay 

›_ Trò chơi đông thời, không lặp lại, thông tin đây đủ 
Cân băng Nash với chiến lược hỗn hợp 
Mô hình độc quyên song phương Cournot 

›_ Trò chơi lặp lại, thông tin đây đủ 

›_ Trò chơi tuân tự với thông tin đây đủ (sequential-move games with complete 

InformatIon) 

Mô hình độc quyên song phương Stackelberg 


› Nước đi chiến lược — Strateøic move 


Trò chơi không có cân bằng Nash 
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Làm nhiêu, trong 
khi có thê trôn việc 





Làm nhiều 








Làm việc Lãng phí chi phí Không tôn chi phí mà 


cty vẫn hoạt động 





Không làm việc và 
Trôn việc | không được lãnh lương 


Không phải làm mà 
vẫn có lương 


Không tốn chi phí 
giám sát nhưng bị lỗ 


Tốn chi phí nhưng phát 





hiện được trôn việc 





Trò chơi không có cân bằng Nash 


- Công nhân 
› Lương: 100 $ (nêu bị bắt cặp trôn việc sẽ không được nhận) 
› Chi phí lao động: 50$ 
- Nhà quản lý 
›_ Giá trị sản phẩm do lao động tạo ra: 200$ 
› Chi phí kiểm tra: 10$ 
›_ Nêu công nhân không làm việc, lợi nhuận: 0$ 







Nha quản lý 
PNmmg]ũl sö» | sáu — 
¿22 |lmrônvệc | 01 | 00100 — 










Chiên lược hỗn hợp (mixed strategies) 


› Ý tưởng 
›_ Ngăn chặn việc đôi phương phán đoán chiến lược của mình 
› Thực hiện ngẫu nhiên "vừa đủ” đề cho đôi phương không có 
khả năng tận dụng chiên lược của mình 
› “vừa đủ” nghĩa là làm cho đôi phương trung dung tronø các 
chiên lược của họ. 


Chiên lược hỗn hợp 
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hiện 





Bï: Tính kết cục kỳ vọng của Ø7: Tính kết cục kỳ vọng của 
công nhân nhà quản lý 


B2: Tìm phản ứng tốt nhâtcủa 2: Tìm phản ứng tốt nhật của 
công nhân trước môi chiên lược nhà quản lý trước môi chiên 
khả dĩ của nhà quản lý lược của công nhân 


Chiên lược hỗn hợp 
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Công 50, 90 50, 100 
"3: | Trốn việc (7-p) 100, -100 


Cả sử 

› Công nhân làm việc với xác suất D, Và trôn việc với xác suât 
(Ï-p) 

› Nhà quản lý giám sát với xác suất 4, và không giám sát với 
xác suât (1-g) 


s7 ^^ s7 ⁄ 


C(Iám sát z¿ | Không giám sát (7-g) 


Chiên lược hỗn hợp — quan điềm nhà quản lý 















Không giám sát (/-/) 
"1 | Trốn việc (7-p) 100, -100 


Nhà quản lý: xác định xác suất q tốt nhất để làm cho 
công nhân không trôn việc 
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^ tìm hiêu xem công nhân sẽ phản ứng như thê nào 
trước các q khác nhau. 


Chiên lược hỗn hợp - quan điềm nhà quản lý 
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Công 50, 90 50, 100 
"131 | Trốn việc (7-p) 100, -100 


> Nhà quản lý: xác định xác suât q tốt nhât đề làm cho công nhân 
không trôn việc tìm hiêu xem công nhân sẽ phản ứng như 
thê nào trước các q khác nhau. 


s. 7 ^^ s7 ⁄ 


C(Iám sát z¿ | Không giám sát (7-g) 


>- Bước 1: Tính kết cục kỳ vọng của công nhân trong trường 
hợp 
› Nếu làm việc: 50q + 50*(1-q) =50 
› Nêu trôn việc: 0*q + 100(1-q) = 100-100q 


Chiến lược hỗn hợp - quan điểm nhà quản lý 
› Bước 1: Tính kết cục kỳ vọng của công nhân tronø 
trường hợp 
› Nếu làm việc: 50*q + 50*(1-q) =50 
› Nếu trốn việc: 0*q + 100*(1-q) = 100-100q 


› Bước 2: Phản ứng tốt nhất của công nhân 
› Là phản ứng tốt nhât của công nhân trước mọi chiên 
lược khả dĩ của nhà quản lý. 
› Xác suất øiám sát q  [O, 1] 


Chiên lược hỗn hợp - quan điềm nhà quản lý 


> Bước 1: Tính kết cục kỳ vọng của công nhân tronø 
trường hợp 
> Nêu làm việc: E(làm việc) =50 
› Nếu trôn việc: E(trỗn việc)= 100-100q 


› Bước 2: Phản ứng tốt nhât của công nhân 
› E(làm việc) > E(trôn việc) nêu q>1/2 
›_ E(làm việc) < E(trỗn việc) nêu q<1/2 
› E(làm việc) = E(trôn việc) nêu q=1/2 


Chiên lược hỗn hợp — quan điềm nhà quản lý 


> Bước 1: Tính kết cục kỳ vọng của công nhân trong 
trường hợp 
> Nêu làm việc: E(làm việc) =50 
› Nếu trôn việc: E(trôn việc)= 100-100q 


› Bước 2: Phản ứng tốt nhât của công nhân 
› Phản ứng tốt nhất với mọi q > 1⁄2: làm việc 
› Phản ứng tôt nhất với mọi q < 1⁄2: trỗn việc 
› Phản ứng tốt nhất với q=1/2: làm việc hoặc trỗn việc 
(bàng quang giữa hai lựa chọn) 


Chiên lược hỗn hợp 
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Bï: Tính kết cục kỳ vọng của B1: Tính kết cục kỳ vọng của 
công nhân nhà quản lý 


B2: Tìm phản ứng tốt nhâtcủa 2: Tìm phản ứng tốt nhất của 
công nhân trước môi chiên lược nhà quản lý trước môi chiên 
khả dĩ của nhà quản lý lược của công nhân 


Chiên lược hỗn hợp — quan điểm công nhân 


Tính toán tương tự 


Bước I: Tính kết cục kỳ vọng của nhà quản lý trong trường hợp: 
›_ Nếu giám sát: E(giám sát) =100p -10 
›_ Nếu không giám sát: E(không giám sát)= 200p -100 


Bước 2: Phản ứng tôt nhất của nhà quản lý 


Phản ứng tôt nhất với mọi p <9/10: giđm sát 


Phản ứng tôt nhất với p = 9/10: giám sát hoặc không giám sát 


ờ 
›_ Phản ứng tốt nhất với mọi p > 9/10: không giám sát 
ỳ 
›- (bàng quang g1ữa hai lựa chọn) 


Chiên lược hỗn hợp 


Cân bằng Nash trong 9/10 
chiến lược hón hợp 


^ ^ ` °® KV . 

› Công nhân làm việc B 
y° ⁄ Ẫ & <‹2s 
VỚI Xác suât 9/10 và '= 
trn việc với xác suât - 
1/10 5 

› Nhà quản lý giám sát : 
VỚI Xác Xuât 1⁄2 và >2 


không øIlám sát với 
xác suât 1/2 
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Phân loại trò chơi 


Trò chơi 
Games 


Thông tin đây đủ Thông tin không đây đủ 
Complete (symmetric) info Incomplete (asymmetric) info 
8.716 .111411. "`. 5. Trò chơi đồng thời || Trò chơi tuần tự 
One-shot games Hiepeated games Simultaneous-move Sequential-move 


games games 


Trò chơi đồng thời Trò chơi tuần tự Trò chơi kết hợp (đồng thời 
Simultaneous-move Sequential-move và tuân tự) 


games games simultaneous & sequeniial 
-moves games 





Trò chơi lặp lại 


Người 2 


Người 1 





›_ Trở lại bài toán tình huông lưỡng nan của người tù 

›- Bán chât của sự tương tác này là không lặp lại và không sợ bị trừng 
phạt 

›_ Nêu trò chơi này lặp lại 2 lân thì sao? Lặp lại n lần thì sao? 

›_ Nêu trò chơi lặp lại đủ nhiêu hoặc không biệt được sô lân lặp lại thì trò 
chơi sẽ bắt đầu băng việc hợp tác và hợp tác cho đên chừng nào đôi thủ 
còn hợp tác. 

›_ Khi việc không hợp tác xuât hiện, chiên lược không hợp tác sẽ được chọn 
cho đên khi kết thúc trò chơi. 


Trò chơi lặp lại 








21/0) 
 Khônghgptc | 1010 | 600 — 
HpMe | 060 | 3030 — 


›_ Hợp tác nêu ø1á trị hiện tại (PV: present value) của hợp tác 
là lớn hơn giá trị hiện tại của không hợp tác 


mmnirmirrrrnirrrrirrrnmann 


Hợp tác 






Người 1 





Không hợp tác 60 10 10 10 


Trò chơi lặp lại 


Giả sử: ö là hệ sô chiết khâu 
Hợp tác nêu: 
PV( hợp tác) > PV(không hợp tác) 
30 +30 ð + 30 ð“ +... >0 + 106 +10 ð“ +... 
30(1/(1- ð)) > 60 + 10 õð(1/(1- ồ)) 
ò > 3/5 
Hợp tác sẽ bên vững nếu như hệ sô chiết khâu lớn hơn 0.6 


Phân loại trò chơi 


Trò chơi 
Games 


Thông tin đây đủ Thông tin không đây đủ 
Complete (symmetric) info Incomplete (asymmetric) info 
m6 15.111... L1 i42,s442 Trò chơi đồng thời || Trò chơi tuần tự 
One-shot games Hiepeated games Simultaneous-move Sequential-move 


games games 


Trò chơi đồng thời Trò chơi tuân tự Trò chơi kết hợp (đồng thời 
Simultaneous-move Sequential-move và tuân tự) 


games games simultaneous & sequeniial 
-moves games 





Ra quyết định tuân tự với thông tin đây đủ _ 
Trò chơi gôm nhiêu giai đoạn 
Dự đoán đôi phủ làm øì trong tương lai để ra quyết định ở 
hiện tại. 
Trò chơi tuân tự thường được biểu diễn băng cây quyết 
định 


Tìm điểm cân băng băng phương pháp quy nạp ngược 


Ra quyêt định tuân tự với thông tin đây đủ 


› Cây quyết định 
Người Ï 
1 P 
G 
Người 2 
T ' T/ T 5 
e © Người 1 Ö ® ® 
0 0 2 3 44 32 0 0 
1 P 
® ® 
56 4 7 


Ra quyêt định tuân tự với thông tin đây đủ 


›_ Phương pháp quy nạp ngược 


(backward I1nduction) 


ĐƯỜI Ï 
T › 
G 
Người 2 
: \ xƒ \v vÍ 
e ©e Người 1 Ö ® ® 
00 ĐC, 44 ư 00 
P 
C/ C) 
53,5 3,4 


Ra quyêt định tuân tự với thông tin đây đủ 


› Lợi thê người đi trước 















Alirbus 


= 
01111104 l 





Boeing Airbus 
DỰ KoDT 
Alrbus Boeing 
ĐT oDTI ĐT o ĐT 
oĐTI sz oĐDT 


Nước đi chiễn lược — Strategic move 


›- Thực hiện hành động làm “thay đôi 

trò chơi” đê đảm bảo một kết cục tôt 
hơn cho người thực hiện hành động 
đó. 





›_ Cam kết, đe dọa và hứa hẹn 


Thomas Schelling 
(commitmentfs, threats and promIses) Nobel 2005 


